iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 19
0

機器學習預訓練模型API - Cloud Speech API

前面兩篇Google Cloud Platform的API介紹文章主要是著重在視覺相關領域的應用,但是,是想我們一天的生活當中,最常使用的溝通方式是什麼呢? 你想得沒錯,就是語言,透過語言除了可以傳遞我們想要表達的重要訊息之外,從中更可挖掘出許多的洞見。今天要和大家介紹的就是一個和語言非常相關的Cloud Speech API(註1),其最主要的功能就是將語音轉錄為文字(Speech to Text),但是在這樣簡單的架構下其實也有非常多的用途,就讓我們一起來看看吧!

透過Google Cloud Platform的Cloud Speech API,我們可以完成以下工作(非涵蓋全部Cloud Speech API功能,在此以列舉課程中提到的功能為主):

  • Speech to text transcription: 將語音轉錄為文字,回傳該音訊檔案的文字結果,能夠支援超過100種語言及方言
  • Speech timestamps: 回傳在一段語音當中,每段文字的起迄時間點,有利於在音訊檔案中進行搜尋
  • Profanity filtering: 過濾語音轉換為文字的結果中之不適當內容
  • Batch & streaming transcription: 此API在處理上能夠以批次(Batch)與串流(Streaming)這兩種方式來處理,應對多樣的使用情境

下圖以課程中的操作範例為例(見圖1),讓大家更清楚使用此API後可以得到的結果樣貌。我們可以在影片上使用Cloud Speech API,便可得到圖片中下方的文字內容(Speech to text transcription),同時,我們也可以透過點擊下方的文字內容,上方的影片便會跳轉至該文字出現的影片片段(Speech timestamps)。

https://ithelp.ithome.com.tw/upload/images/20191003/20120261Whmx8buW2N.png
圖1
Source: Coursera - How Google does Machine Learning

註1: https://cloud.google.com/speech-to-text/


上一篇
Day 18 - How Google does Machine Learning (17)
下一篇
Day 20 - How Google does Machine Learning (19)
系列文
Understanding and Applying Machine Learning with Google Cloud Platform30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言